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(57) Abstract 

Hie invention 
relates to a method and 
system for representing 
the relevance of electronic 
documents in relation 
to user-specific search 
and interest profiles. The 

relevance of each respective document in relation to specific search profiles is essentially determined by counting words. Documents and 
search profiles are interpreted as vectors, individual words are considered as vector components and the frequency of words is seen as 
values of vector components. The document vectors and search profile vectors are projected on a common plane and the angle formed by 
the vectors is used to measure the conformity of said document in relation to the respective search profile. The results of analysis are 
represented in three dimensions enabling the documents to be arranged in such a way that similar documents are located next to each 
other or documents which are relevant to a search profile are arranged close to said search profile. The system can be especially used in 
searches in computer networks such as Internet or for databank searches and visualization of library contents, archives or complex data 
stock of all varieties. 



(57) Zusammenfassung 

Die Erfindung beschreibt ein Verfahren und ein System zur Darstellung der Relevanz elektronischer Dokumente in Bezug auf 
benutzerspezifische Such- bzw. mteressenprofile. Die Relevanz der jeweiligen Dokumente in Bezug auf bestimmte Suchprofile wird im 
wesentlichen durch ZShlen von Worten bestimmt. Dokumente und Suchprofile werden dabei als Vektoren aufgefaBt, mit den einzemen 
Worten als Vektorkomponenten und der Haufigkeit der Worte als Werten der jeweiligen Vektorkomponenten. Die Dokurnentenvektoren 
und Suchprofilvektoren werden in erne gemeinsame Ebene projiziert und der Winkel zwischen den Vektoren dient als Ma6 fOr die 
Obereinstimmung des Dokurnents mit dem jeweiligen SuchprofiL Die Analyseergebnisse werden dreidimensional dargestellt und zwar 
derartig, daB Dokumente so angeordnet werden, daB ahnlkhe Dokumente beieinander liegen, bzw. Dokumente, die relevant auf ein 
Suchprofil sind, in der Nahe dieses Suchprofiles angeordnet werden. Angewendet werden kann dieses System insbesondere bei Suchen 
in Rechnemetzwerken, wie dem Internet bzw. Datenbankrecherchen und zur Veranschaulichung von Bmliotheksinhalten, Archiven oder 
komplexen Datenbestanden aller Ait 
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Beschreibung 

Verfahren und System zur rechnergestiitzten Ermittlung einer 
Relevanz eines eiektronischen Dokuments fur ein vorgebbares 
5 Suchprofil. 

Die Erfindung bezieht sich auf ein Verfahren und ein System, 
womit die Relevanz von Dokumenten, wie sie beispielsweise bei 
einer Internetsuche gefunden werden, beziiglich vorgegebener 
10 Interessenprofile dargestellt werden kann. 

Die zunehmende elektronische Datenflut in Wissenschaf t, Inge- 
nieurwesen und Wirtschaft erschwert das Auffinden und den Zu- 
griff auf relevante, verlaBliche und moglichst vollstandige 
15 Informationen. Bisherige LSsungsvorschlage fur Data Mining 
und Visualisierung groBer Inf ormationsmengen, insbesondere 
von Volltexten und WEB-Seiten, sind haufig weder anwender- 
freundlich noch effizient genug fur den praktischen Einsatz. 

20 Bestehende Technologies wie sie z. B. bei Internet Recher- 
chen angewendet werden, beschranken sich zur Zeit noch iiber- 
wiegend auf die Ausgabe von Texten oder uniibersichtlichen 
Listen von Quellenangaben. Ansatze zur Visualisierung sind 
zwar in der Literatur dokumentiert, beschranken sich aber 

25 entweder auf die Visualisierung wissenschaf tlicher Daten, 

oder vernachl&ssigen die Aspekte der Erschlieflung von Infor- 
mationsbestanden und die Ankopplung an die Visualisierung. 
Aus dem Artikel von T. Fuhring, K. Jacoby, R. Michelis, J. 
Panyr "Kontextgestaltgebung: Eine Metapher zur Visualisierung 

30 und Interaktion mit komplexen Wissensbestanden", erschienen 
in den Proceedings des 4, Internationalen Symposiums fur In- 
formationswissenschaft (ISI '94) Band 16, ist es bekannt eine 
approximative Einbettung formaler Kontexte in 3D-Informati- 
onsraume durchzufuhren, deren formale Semantik ttber den 

35 Abstandsbegrif f auf der Grundlage des Prinzips "kontextuelle 
Nahe » raumliche Nahe" definiert wird. Hierdurch ist es mog- 
lich binare formale Kontexte darzustellen. 
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Aus [1] und [2] ist bekannt, Dokumente hinsichtlich der 
Relevanz dieser Dokumente beztiglich vorgegebener 
Schltisselworte zu analysieren. 

5 Ferner ist aus [3] bekannt, Dokumente hinsichtlich der 
HSufigkeit des Auftretens eines Schliisselwortes zu 
untersuchen. 

Der Erfindung liegt die Aufgabe zu Grunde ein Verfahren und 
10 ein System ftir die Veranschaulichung mehrwertiger formaler 
Kontexte anzugeben. 

Diese Aufgabe wird ftir das Verfahren gemaB den Merkmalen des 
Patentanspruches 1 und fur das System gemaB den Merkmalen des 
15 Patentanspruches 13 gel6st. 

Bei dem Verfahren zur rechnergesttltzten Ermittlung einer 
Relevanz eines elektronischen Dokuments ftir ein vorgebbares 
Suchprofil werden mindestens folgende Schritte durchgeftihrt : 
20 a) es wird das Suchprofil, das mindestens ein Wort umfaBt, 
erstellt; 

b) ftir jedes Wort des Suchprofils wird die 

Auftrittshaufigkeit des Wortes in dem elektronischen 
Dokument bestimmt; 

25 c) unter Verwendung der Auftrittshaufigkeit jedes Wortes wird 
fur das elektronische Dokument ein Ergebnisprof il bestimmt; 
d) unter Verwendung des Suchprofils und des Ergebnisprof ils 
des elektronischen Dokuments wird ein Vektor ftir das 
Suchprofil bestimmt, wobei jedes Wort des Suchprofils eine 

30 Vektorkomponente und ein vorgebbarer Wert ein Wert der 

Vektorkomponente ist, und ein Vektor fur das Ergebnisprof il 
bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und die entsprechende Haufigkeit ein Wert 
der Vektorkomponente ist; 

35 e) es wird ein Winkel zwischen dem Vektor des Suchprofils und 
dem Vektor des Ergebnisprof ils bestimmt; 
f) unter Verwendung des Winkels wird die Relevanz bestimmt. 
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Diese Relevanzbestimmung lafit sich mit relativ geringem 
Rechenaufwand durchftthren, so dafi viele Suchprofile in bezug 
auf viele Dokumente analysiert werden k6nnen und gleichzeitig 
5 ein akzeptables Zeitverhalten erreicht wird. 

Das System zur rechnergestUtzten Ermittlung einer Relevanz 
eines elektronischen Dokuments fiir ein vorgebbares Suchprofil 
weist mindestens folgende Merkmale auf: 
10 a) es ist ein Rechner (COMP) vorhanden, der derart 

eingerichtet ist, daB folgende Schritte durchfiihrbar sind: 

- es wird das Suchprofil, das mindestens ein Wort umfaBt, 
erstellt; 

- fiir jedes Wort des Suchprofils wird die 

15 Auftrittshaufigkeit des Wortes in dem elektronischen 

Dokument bestimmt; 

- unter Verwendung der Auftrittshaufigkeit jedes Wortes 
wird fiir das elektronische Dokument ein Ergebnisprof il 
bestimmt; 

20 - unter Verwendung des Suchprofils und des 

Ergebnisprofils des elektronischen Dokuments wird ein 
Vektor fur das Suchprofil bestimmt, wobei jedes Wort 
des Suchprofils eine Vektorkomponente und ein 
vorgebbarer Wert ein Wert der Vektorkomponente ist, und 

25 ein Vektor fiir das Ergebnisprof il bestimmt, wobei jedes 

Wort des Suchprofils eine Vektorkomponente und die 
entsprechende Haufigkeit ein Wert der Vektorkomponente 
ist; 

- es wird ein Winkel zwischen dem Vektor des Suchprofils 
30 und dem Vektor des Ergebnisprofils bestimmt; 

- unter Verwendung des Winkels wird die Relevanz 
bestimmt; 

b) es ist eine grafische Rechneranzeigevorrichtung (DIS) vor- 
handen; 

35 c) es sind Mittel zum Zugriff (Z) auf elektronische Dokumente 
(D) vorhanden* 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Ansprtichen* 

Vorzugsweise werden ein erstes, den Vektor eines Suchprofils 
5 reprasentierendes, Element und ein zweites, den Vektor eines 
Ergebnisprofil eines elektronischen Dokuments 
represent ierendes, Element dargestellt. 

In einer weiteren Ausgestaltung der Erfindung werden mehrere 
10 zweite Elemente, die jeweils einen Vektor eines 
Ergebnisprofils eines elektronischen Dokuments 
reprasentieren, derart dargestellt, dafi zweite Elemente von 
elektronischen Dokumenten, welche Dokumente eine Relevanz 
aufweisen, die kleiner ist als ein Schwellenwert, 6rtlich 
15 naher beieinander dargestellt werden als zweite Elemente von 
elektronischen Dokumenten, welche elektronische Dokumente 
eine Relevanz aufweisen, die nicht kleiner ist als der 
Schwellenwert * 

20 Vorteilhaft wird die Erfindung durch Anwendung einer Winkel- 
funktion auf die gefundenen Winkel zwischen den Suchvektoren 
und den Ergebnisvektoren weitergebildet und in Form einer Re- 
levanzmatrix weiterverarbeitet, da diese als Ahnlichkeitsma- 
trix interpretiert oder auf einfache Weise in eine solche um- 

25 gewandelt werden kann. 

Vorteilhaft wird die Erfindung unter Verwendung einer Ahn- 
lichkeitsmatix weitergebildet, welche aus der Relevanzmatrix 
abgeleitet wird, und die Ahnlichkeit einzelner Dokiamente un- 
30 tereinander angibt. Auf diese Weise laBt sich die Metapher 
"raumliche Nahe = inhaltliche Nahe" in der graphischen Dar- 
stellung sehr einfach realisieren und somit ist bei der Auf- 
bereitung fur die Graphik ein geringerer Rechenaufwand erfor- 
derlich. 

35 

Vorteilhaft wird die Erfindung durch die Anwendung der Kosi- 
nusfunktion auf die gefundenen Winkel zwischen den Vektoren 
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weitergebildet, da der Kosinus von 0° = 1 ist. Somit wird bei 
einem Obereinanderliegen der Vektoren eine Identitat der Do- 
kumente angegeben, was dem Sachverhalt, der durch die Vekto- 
ren dargestellt wird, entspricht. 

5 

Vorteilhaft wird das erf indungsgemafte Verfahren durch die An- 
wendung in einem Rechnernetzwerk weitergebildet, da haufig 
aus Rechnernetzwerken elektronische Dokumente als Suchergeb- 
nisse erhalten werden, welche innerhalb eines akzeptablen 
10 Zeitabschnitts nicht von Menschen analysiert werden konnen. 

Vorteilhaft wird in einer Weiterbildung der Erfindung als 
Rechnernetzwerk das Internet verwendet, da das Internet bzw. 
World Wide Web ein weit verbreitetes Netzwerk darstellt und 
15 somit eine hohe Nutzerbasis fur das erf indungsgemaBe Verfah- 
ren vorliegt. 

Vorteilhaft wird die Erfindung durch die Verwendung von elek- 
tronischen Dokumenten aus Datenbanken weitergebildet, da 
20 hierdurch Bibliotheken und andere Datenbanken fur elektroni- 
sche Dokumente sinnvoll, transparent und schnell veranschau- 
licht werden konnen. 

Vorteilhaft ist ein System bestehend aus einem Rechner einem 
25 Display und Mittel zum Zugriff auf elektronische Dokumente, 
welches das erfindungsgemafie Verfahren und vorzugsweise seine 
Weiterbildungen ausftlhrt, da die Hardware-Mittel weit ver- 
breitet sind und eine gute VerfUgbarkeit dieser Mittel ge- 
wahrleistet ist. Ebenfalls ist der Zugriff auf elektronische 
30 Dokumente durch weitverbreitete Netzzugangsmittel und offent- 
liche und private Netze gewahrleistet . 

Im Folgenden werden Ausfiihrungsbeispiele der Erfindung anhand 
von Figuren weiter erlautert. 

35 

Figur 1 zeigt ein Beispiel zur Bildung einer Relevanzmatrix 
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Figur 2 veranschaulicht weitere Verarbeitungsschritte des 
Verfahrens 

Figur 3 veranschaulicht die Winkelberechnung 
Figur 4 zeigt einen Bildschirmausschnitt nach Durchftthrung 
5 des Verfahrens ♦ 

Wie Figur 1 zeigt werden bei einer Ausgestaltung des erfin- 
dungsgemaBen Verfahrens elektronische Dokumente Dl, D2 und DN 
verwendet und anhand von Suchprofilen PI, P2 und FM, welche 

10 fallweise gewichtete Suchbegriffe enthalten, wird die Infor- 
mation, welche in den Dokumenten Dl bis DN enthalten ist, er- 
schlossen. Bei den verwendeten Dokumenten Dl bis DN kann es 
sich beispielsweise um Dokumente handeln, welche im World 
Wide Web bei einer Net-Suche gefunden wurden. Bei den Profi- 

15 len kann es sich um handerstellte bzw. vom Benutzer defi- 

nierte Suchprofile handeln, welche fallweise an den einzelnen 
Begriffen Gewichtungen gemaB ihrer Wichtigkeit aufweisen. 
Ebenfalls ist es denkbar als Profile auch Dokumente zu ver- 
wenden. Beispielsweise ist es auch denkbar Suchprofile anhand 

20 von Wortstatistiken zu erstellen, welche anhand von Dokumen- 
ten durchgeftihrt werden, die der Bediener ftir hochst interes- 
sant halt und dem Rechner zur Verfiigung stellt. Ebenso ist es 
denkbar Suchprofile untersttitzt durch einen fachspezif ischen 
Thesaurus einzugeben. Auch konnen durch Beobachten des Benut- 

25 zerverhaltens und durch Lernkomponenten Suchprofile automa- 
tisch generiert werden 



In einem Bearbeitungsschritt 100 wird die Relevanz zwischen 
den einzelnen Profilen PI bis FM und den einzelnen Dokumenten 

30 Dl bis DN bestimmt. Vorzugsweise geschieht dies ftir alle Do- 
kumente und alle Profile, so daB eine Relevanzmatrix R ent- 
steht. Zur Bestimmung der Relevanz wird vorzugsweise die 
Worthaufigkeit in den Dokumenten ermittelt und iibereinstim- 
mende Worte mit den jeweiligen Suchprofilen werden gesucht. 

35 AnschlieBend werden die Suchprofile und die je Dokument und 
Suchprofil ermittelten Ergebnisprof ile als Vektor dargestellt 
tmd in der Vektorebene, die durch die Begriffe des Suchvek- 
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tors aufgespannt wird, wird der Winkel zwischen den Suchvek- 
tor und dem Ergebnisvektor bestimmt und als MaJJ far die Rele- 
vanz des Dokumentes das untersucht wurde, verwendet* In Figur 
1 ist die Relevanzmatrix R mit Zahlen und Buchstaben verse- 
5 hen, urn anzudeuten, wie eine Relevanzmatrix aussehen kann. 
Waagerecht sind beispielsweise die Profile PI bis PN aufge- 
tragen und senkrecht die Dokumente Dl bis DN. An den Schnitt- 
punkten der jeweiligen Spalten und Zeilen stehen die Rele- 
vanzwerte. Hierdurch wird erstmals ein mehrwertiger formaler 
10 Kontext realisiert, wodurch die i-te-Zeile der Matrix R den 
Relevanzen des i-ten-Dokuments bezuglich aller Profile k ent- 
spricht . 

Wie Figur 2 weiter zeigt kann die Relevanzmatrix R in ProzeB- 
15 schritten 200, 300 und 400 weiterverarbeitet werden. Bei- 
spielsweise steht iiber eine Schnittstelle 500 der Zugriff 
auf Dokumente und Suchprofile und Browser zur Verfugung, In 
einem ersten Schritt 200 wird beispielsweise aus der Rele- 
vanzmatrix eine Ahnlichkeitsmatrix berechnet, wozu aus den 
20 Relevanzwerten fur einzelne Dokumente mit anderen Dokumenten 
eine Korrelationsanalyse durchgefiihrt wird. Bevorzugt wied 
die Korrelationsmatrix C folgende Rechenschritte durch 
Berechnung der Korrelationskoef fizienten C ik zwischen den 
Dokumenten bezuglich der Suchprofile aus der Matrix R durch 
25 folgende Schritte bestimmt: 

-Normierung der Zeilenvektoren r ± der Matrix R: 

qi=(ri-mi) 
mit Mittelwert mi=l/N £ ri 

Lange q± und Standardabweichung ai=sqrt (I (ri-mi) 2 ) 

30 

-Berechnung der Korrelationskoef fizienten zu 

c ik ~~ der Matrix C. 

-C entspricht dabei in der Form der bisherigen Ahnlich- 
keitsmatrix, bzw. einer Gegenstands-Gegenstandsmatrix* 
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Beispielsweise kann der Mechanismus zur Berechnung der Ahn- 
lichkeit durch unterschiedliche MaBnahmen verbessert werden. 

-In einem ersten Schritt kdnnen beispielsweise Stopworter 
5 eliminiert werden, welche im allgemeinen von der Domane der 
Abhandlung des speziellen Dokumentes abhangig sind. In vie- 
len Fallen konnen dieses Konjunktionen, Artikel, Prapositio- 
nen sein, die sicher entfernt werden konnen, ohne daB dabei 
der Inhalt des Dokumentes verfremdet wird. 

10 

-Fallweise kann es auch moglich sein domanenspezif ische Worte 
zu entfernen, um die Signifikanz des gefundenen MaBes zu 
verbessern. 

15 -Als weitere MaBnahme kann die Metrik des verwendeten Systems 
auf wichtige Aspekte der Applikationsdomane fokussiert wer- 
den • In diesem Fall konnen nur einige wenige Konzepte oder 
Aspekte der beschriebenen Worte aus domanenspezif ischen The- 
sauri verwendet werden, oder Ontologien. 

20 

-Als weitere MaBnahme kann die Unterscheidungskraf t des Ver- 
fahrens verbessert werden, indem eine umgekehrte Dokument- 
frequenzkorrektur eingeftlhrt wird. Bei dieser Methode werden 
Wortgewichte verwendet, wobei Worte, die in vielen Dokumen- 

25 ten auftreten, mit einem logarithmischen Faktor F gewichtet 
werden* Dieser Faktor best i mint sich beispielsweise so, daB F 
= log(Anzahl der Dokumente D, welche das Wort W-j enthal- 
ten/durch die Gesamtzahl der Dokumente) , Als Folge dieser 
MaBnahme erhalt man ein wortabhangig gewichtetes Ahnlich- 

30 keitsmaB. 

In einem Verarbeitungsschritt 300 findet beispielsweise die 
Umsetzung der Ahnlichkeitsmatrix ftir eine raumliche Darstel- 
lung gemaB dem anfangs zitierten Stand der Technik statt. In 
35 einem Verarbeitungsschritt 400 wird gemaB dem Stand der Tech- 
nik der in Schritt 300 zur Verfiigung gestellte Datensatz 
dreidimensional visualisiert. 
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-Darstellung der Korrelationsmatrix C durch raumliche Ab- 
stande nach einem bekannten Verfahren. 

-Anwendung der bekannten Optimierungsalgorithmen zur 
grafischen Aufbereitung. 

5 

-Berttcksichtigung der Merkmale in der graphischen Darstel- 
lung. 

-Ein Dokument ist relevant zu einem Profil, wenn wenig- 
stens ein Wort des Profils einmal im Dokument auftritt. 
10 -> Der Gegenstand "Dokument i" hat das Merkmal "Profil 

k ff . 

-Visualisierung im 3D-Raum 

-VRML: Anwahlen der Dokumente und Profile zeigt die Dokument- 
15 und Profildateien im Fenster eines Internet-Browsers (z. B.: 
Netscape) . 



Der Weg uber eine Ahnlichkeitsmatrix, welche aus der Rele- 

20 vanzmatrix abgeleitet wird, ist beim erf indungsgemafien Ver- 
fahren jedoch nicht zwingend erforderlich. Es besteht ebenso 
die Moglichkeit eines direkten Ansatzes, wobei die Relevanz- 
matrix R direkt in einen dreidimensionalen Raum umgesetzt 
wird. Hier wird nicht die Metapher der Ahnlichkeit zwischen 

25 Dokumenten und der raumlichen Nahe benutzt, sondern vielmehr 
die Relevanz eines Dokuments im Bezug auf ein bestimmtes 
Merkmal in eine raumliche Nahe umgesetzt. Mit der Erfindung 
wird erstmals die Integration von Textanalyse, Visualisierung 
und Retrieval in einem System realisiert. Insbesondere wird 

30 durch die Erfindung eine neue Verbindungskomponente angege- 
ben, welche aus den Ergebnissen der Dokumentanalyse die Ahn- 
lichkeit von Dokumenten berechnet. Diese Komponente beruht 
auf einem Korrelationsverfahren, mit welchem die Korrelati- 
onsmatrix berechnet wird, welche anschliefiend im dreidimen- 

35 sionalen Raum auf einem Computerdisplay visualisiert wird. 
Hierdurch wird erstmals die Veranschaulichung mehrwertiger 
formaler Kontexte ermoglicht. 
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Figur 3 veranschaulicht die Berechnung eines Relevanzwertes 
eines Dokuments in bezug auf ein Suchprofil. Wie bereits be- 
schrieben, werden dazu die Texte des Dokuments und des Such- 
5 profils als Vektoren dargestellt. Wegen einer einfachen iiber- 
sichtlichen Darstellung wurde hier lediglich ein Suchprofil 
mit zwei Worten T10 und T20 gewahlt. Beispielsweise werden in 
diesem Fall epidemologische Dokumente untersucht. Der Begriff 
T10 bedeutet beispielsweise influenza und T20 bedeutet out- 

10 break. DV bezeichnet den Dokumentenvektor und PV bezeichnet 
den Suchprofilvektor. An den jeweiligen Achsen T10 und T20 
ist die Haufigkeit der Worte angegeben. Der Winkel a dient 
als MaB fur die Obereinstimmung des Suchprof ilvektors PV und 
des Dokumentenvektors DV. Insbesondere kann hierftir der Kosi- 

15 nus des Winkels gebildet werden, da bei einer Ubereinstimmung 
der beiden Vektoren der Winkel 0 ware und damit der Kosinus 
1, was einer exakten Ubereinstimmung entsprache. 

Zur Berechnung des Relevanzwertes eines Dokuments beziiglich 
20 eines Profiles folgt nun ein Beispiel: 

Gegeben sei ein Dokument: 

{Influenza report: Large influenza outbreak reaches Paris.} 

25 

Zu diesem Dokument wird ein Dokumentenvektor, dessen Dimen- 
sionen durch die Begriff e "influenza, large, outbreak, paris, 
reaches, report" bestimmt sind definiert. Das Dokument wird 
beziiglich dieser Dimensionen als Dokumentenvektor 

30 

d={2, 1, 1, 1 , 1, 1} 

dargestellt. Die Elemente des Vektors d entsprechen den 
Worthaufigkeiten der auftretenden Begriffe. 

35 

Ahnlich wie ftir Dokumente und Dokumentenvektoren wird ein 
Suchprofil definiert, 
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{ inf luenz a , outbreak} , 

und ein Profilvektor PV, dessen Elemente Gewichtungen der Be- 
5 griff sdimensionen "influenza" und "outbreak" entsprechen, 

PV={1, 1). 

Es wird die Projektion des Dokumentenvektors d auf die Ebene 
10 des Prof ilvektors berechnet und es ergibt sich der proji- 
zierte Dokumentenvektor, DV={2, 1}. AnschlieBend wird cos a 
zwischen DV und PV als Mafi fiir die Relevanz r des Dokuments 
beziiglich des Profils definiert: 

<DV,PV> 

15 r=cos a = 



JDV] ||PV|| 



<DV / PV> ist das Skalarprodukt der Vektoren DV und PV, ||.|| ist 
die Lange eines Vektors. 

20 Fiir die Beispielvektoren DV und PV ergibt sich somit eine Re- 
levanz des Dokuments beztiglich des Prof ilvektors von 

r = (2±l) = 0,95. 

a/5V2 

25 Der Spezialfall r=l, bzw* a=0° entspricht der bestmGglichen 
Relevanz des Dokuments beziiglich des Profils. Ein Wert r=0 
ergibt sich bei minimaler Relevanz, bzw. Othogonalitat zwi- 
schen DV und PV. 

30 Es folgt ein Beispiel zur Berechnung der Korrelationskoef f i- 
zienten c ik aus der Relevanzmatrix R: 



Gegeben seien zwei Zeilenvektoren ri und r k der Matrix R f 
welche die Relevanzen der Dokumente i und k bezogen auf vier 
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Profile enthalt. Die Vektoren der Zeilen i und k enthalten 
die Elemente, 

^=(0.6, 0.2, 0.4, 0.8) 

5 und 

r k =(0.0, 0.1, 0.3, 0.4) . 

Daraus ergeben sich die Mittelwerte 

10 mi=0.5, m k =0.2. 

Weiter erhait man 

qi=ri-mi= (0.1, -0.3, -0.1, 0.3) 
15 qk=(-0.2, -0.1, 0.1, 0.2), 

mit LSngen 

Qi=0.4472, G k =0.3162. 

20 

Fiir den Korrelationskoef f izienten c ik ergibt sich, 
c*=^_= 0.4243. 

25 

Dieser Koeffizient wird als Mafi der Ahnlichkeit von Dokumen- 
ten i und Dokument k, bezttglich der vier Profile interpre- 
tiert. Die Matrix C hat die Form einer Gegenstands-Gegen- 
stands-Ahnlichkeitsmatrix und kann mit bekannten Verfahren 
30 visualisiert werden. 

Wie Figur 4 zeigt, kann eine Dokumentenauswertung in bezug 
auf Interessen bzw. Suchprofile auf einem Bildschirm DIS ver- 
ahschaulicht werden. Auf dem dargestellten Bildschinnaus- 
35 schnitt sind Dokumente als Wiirfel und Suchprofile als Kugeln 
dargestellt. Im einzelnen handelt es sich bei den Suchprofi- 
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len urn summer, Complication, Measles, Chicken-Pox dazu gas- 
tro-entritis, Diarrhea, winter, Vaccine illness/outbreak, 
flu, Mumps. Die Dokumente sind im einzelnen nicht bezeichnet. 
Durch anklicken eines Dokumentes mit dem Cursor CU wird bei- 
5 spielsweise ein Fenster 10 angezeigt, in welchem der Inhalt 
des jeweiligen Dokumentes dargestellt wird. Wichtig ist hier- 
bei, dafi durch die Anordnung der einzelnen Dokumente zwischen 
den einzelnen Suchprofilen genau angegeben wird, inwieweit 
die einzelnen Suchprofile in bezug auf dieses Dokument rele- 

10 vant sind. Bei der erf indungsgemaB durchzufiihrenden Analyse 
der einzelnen elektronischen Dokumente kdnnen fur die einzel- 
nen Suchbegriffe in den jeweiligen Suchprofilen Gewichtungs- 
faktoren vergeben werden, damit diese beispielsweise abge- 
schwacht gewichtet werden konnen, was zu einer geringeren 

15 Haufigkeit in bezug auf die Obereinstimmung bestimmter Worte 
mit den jeweiligen Dokumenten ftlhren wtirde. Anstatt eines 
zweidimensionalen Computer Displays DIS konnen auch dreidi- 
mensionale Anzeigevorrichtungen, wie Virtual-Reality-Ra\me, 
Head Mounted Display, 3D-Display oder holographisch arbei- 

20 tende Anzeigen Verwendung finden. 
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In diesem Dokument sind folgende Ver5f fentlichungen zitiert: 



[1] : US 5 649 193 
5 [2] : US 5 576 954 
[3]: US 5 642 518 
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Patentansprtiche : 

1. Verfahren zur rechnergestatzten Ermittlung einer Relevanz 
eines elektronischen Dokuments far ein vorgebbares 
5 Suchprofil das folgende Schritte umfafit: 

a) es wird das Suchprofil, das mindestens ein Wort umfafit, 
erstellt; 

b) fur jedes Wort des Suchprofils wird die 
Auftrittshaufigkeit des Wortes in dent elektronischen 

10 Dokument bestimmt; 

c) unter Verwendung der Auftrittshaufigkeit jedes Wortes wird 
fur das elektronische Dokument ein Ergebnisprof il bestimmt; 

d) unter Verwendung des Suchprofils und des Ergebnisprof ils 
des elektronischen Dokuments wird ein Vektor fur das 

15 Suchprofil bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und ein vorgebbarer Wert ein Wert der 
Vektorkomponente ist, und ein Vektor far das Ergebnisprof il 
bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und die entsprechende Haufigkeit ein Wert 

20 der Vektorkomponente ist; 

e) es wird ein Winkel zwischen dem Vektor des Suchprofils und 
dem Vektor des Ergebnisprof ils bestimmt; 

f) unter Verwendung des Winkels wird die Relevanz bestimmt. 

25 2* Verfahren nach Anspruch 1, bei dem 

jeweils die Relevanz far mehrere Suchprofile und/oder 
mehrere elektronische Dokumente bestimmt wird. 

3. Verfahren nach Anspruch 1 oder 2, bei dem 
30 ein erstes, den Vektor eines Suchprofils reprasentierendes, 
Element und ein zweites, den Vektor eines Ergebnisprof il 
eines elektronischen Dokuments reprasentierendes, Element 
dargestellt werden. 

35 4. Verfahren nach Anspruch 3, bei dem 

mehrere zweite Elemente, die jeweils einen Vektor eines 
Ergebnisprofils eines elektronischen Dokuments 
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reprasentieren, dargestellt werden, derart, daB zweite 
Elemente von elektronischen Dokumenten, welche Dokumente 
eine Relevanz aufweisen, die kleiner ist als ein 
Schwellenwert, ortlich naher beieinander dargestellt werden 
5 als zweite Elemente von elektronischen Dokumenten, welche 
elektronische Dokumente eine Relevanz aufweisen, die nicht 
kleiner ist als der Schwellenwert. 

5. Verfahren nach Anspruch 2 bis 4, bei dem 

10 unter Verwendung der Relevanzen eine Relevanzmatrix (R) 
bestimmt wird. 

6. Verfahren nach Anspruch 5, bei dem 

aus der Relevanzmatrix (R) eine Ahlichkeitsmatrix gebildet 
15 wird, indem die Relevanzwerte je elektronischem Dokument 
(D) zu Relevanzvektoren zusammengef afit und miteinander 
korreliert werden und bei dem diese Ahnlichkeitsmatrix fur 
die grafische Darstellung auf einem Rechnerdisplay (DIS) 
verwendet wird, wobei ein Sinnbild eines ersten elektroni- 
20 schen Dokumentes, welches eine hohere Korrelation mit einem 
zweiten elektronischen Dokument aufweist als ein drittes, 
raumlich naher am Sinnbild des zweiten elektronischen 
Dokumentes dargestellt wird, als das Sinnbild des dritten. 

25 7. Verfahren nach einem der Anspruche 1 bis 6, bei dem als 
Winkelfunktion der Kosinus verwendet wird. 

8. Verfahren nach einem der Ansprtiche 1 bis 7, bei dem als 
elektronische Dokumente (D) Suchergebnisse einer Suche in 

30 einem Rechnernetzwerk verwendet werden. 

9 . Verfahren nach Anspruch 8, bei dem als Rechnernetzwerk das 
Internet verwendet wird. 

35 10. Verfahren nach einem der Ansprtiche 1 bis 7, bei dem als 
elektronische Dokumente (D) Dokumente aus einer Datenbank 
verwendet werden. 
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ll.Verfahren nach einem der vorangehenden Ansprtiche, bei dem 
als Suchprofile (P) elektronische Dokumente (D) verwendet 
we r den. 

5 

12-Verfahren nach einem der vorangehenden Ansprtiche, bei dem 
ein auf der Angezeigevorrichtung (DIS) angezeigte Sinnbild 
mittels einer Eingabevorrichtung der Rechners ausgewahlt 
und/oder der Textinhalt des Dokumentes ftir das das Sinnbild 
10 steht zur Anzeige gebracht wird. 

13 .System zur rechnergestutzten Ermittlung einer Relevanz 
eines elektronischen Dokuments ftir ein vorgebbares 
Suchprofil mit folgenden Merkmalen: 
15 a) es ist ein Rechner (COMP) vorhanden, der derart 

eingerichtet ist, daB folgende Schritte durchftihrbar sind: 

- es wird das Suchprofil, das mindestens ein Wort umfa&t, 
erstellt; 

- ftir jedes Wort des Suchprofils wird die 

20 Auftrittshaufigkeit des Wortes in dem elektronischen 

Dokument bestimmt; 

- unter Verwendung der Auftrittshaufigkeit jedes Wortes 
wird ftir das elektronische Dokument ein Ergebnisprof il 
bestimmt; 

25 - unter Verwendung des Suchprofils und des 

Ergebnisprof ils des elektronischen Dokuments wird ein 
Vektor ftir das Suchprofil bestimmt, wobei jedes Wort 
des Suchprofils eine Vektorkomponente und ein 
vorgebbarer Wert ein Wert der Vektorkomponente ist, und 

30 ein Vektor ftir das Ergebnisprof il bestimmt, wobei jedes 

Wort des Suchprofils eine Vektorkomponente und die 
entsprechende Haufigkeit ein Wert der Vektorkomponente 
ist; 

- es wird ein Winkel zwischen dem Vektor des Suchprofils 
35 und dem Vektor des Ergebnisprof ils bestimmt; 

- unter Verwendung des Winkels wird die Relevanz 
bestimmt; 
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b) es ist eine grafische Rechneranzeigevorrichtung (DIS) vor- 
handen; 

c) es sind Mittel zum Zugriff (Z) auf elektronische Dokumente 
(D) vorhanden* 

14. System nach Anspruch 13, bei dem Auswahlmittel vorhanden 
sind, zur Auswahl eines Sinnbildes auf der Rechneranzeige- 
vorrichtung (DIS) . 



WO 99/10819 



PCT/DE98/02477 



1/2 








R 






P 1 


P 2 


PM 


D1 


0.8 


0.5 


0.2 


D2 


0.0 


0.3 




DN 









FIG 2 



R — ■* 


200 




300 




400 










500 






WO 99/10819 



PCT/DE98/02477 



2/2 




INTERNATIONAL SEARCH REPORT 


Intel >nal Application No 

PCT/DE 98/02477 


A. CLASSIFICATION OF SUBJECT MATTER 
TPP £ mfiCI 7 r\t\ 




According to International Patent Classification (IPC) or to both national classification and IPC 




B. FIELDS SEARCHED 


Minimum documentation searched (classification system followed by classification symbols) 

IPC 6 G06F 


Documentation searched other than rrdnirnum daamenta^ m the fields searched 



Electronic data base consulted during the lntematk>nat search (name oto^ baa© and, where practical, search terms used) 



a DOCUMENTS CONSIDERED TO BE RELEVANT 



Category* Ctation of document with indication, where appropriate, of the relevant passages 



Relevant to claim No. 



SUMNER R G JR ET AL: "An Investigation of 

relevance feedback using adaptive linear 

and probabilistic models" 

FIFTH TEXT RETRIEVAL CONFERENCE (TREC-5) 

(NIST SP 500-238), FIFTH TEXT RETRIEVAL 

CONFERENCE (TREC-5) (NIST SP 500-238), 

GAITHERSBUR6, MD, USA, 20-22 NOV. 1996, 

pages 555-570, XP002090102 

1997, Galthersburg, MD, USA, Nat. Inst. 

Standards & Technol , USA 

see page 557, line 1 - page 558, line 14 

-/- 



1-14 



| X| Further documents are toted In the continuation of box C. 



□ 



Patent family members are tsted in annex. 



° Special categories of ctted documents : 

"A* document defining the general state of the art which b not 

considered to be of particular relevance 
"E" earlier document but published on or after the International 

filing date 

V document which may throw doubts on priority ctaim(8)or 
which is cited to establish the publication date of another 
citation or other special reason {as specified) 

"O" document referring to an oral disclosure, use, exhfeWonor 
other means 

"P" document published prior to the international ffilng date but 
tater than the priority date claimed 



T" later document published after the international filing date 
wpriorty date arxl riot In conflict with the application but 
cfted to understand the principle or theory undertying the 
Invention 

"X* document of particular relevance; the claimed Invention 
cannot be considered novel or cannot be considered to 
involve an Inventive step when the document is taken alone 

"Y" document of particular relevance; the claimed invention 
cannot be considered to involve an inventive step when the 
document is combined with one or more other such docu- 
ments, such combination being obvious to a person skilled 
in the art 

document member of the same patent famBy 



Date of the actual completion of the international search 



15 January 1999 



Date of mailing of the international search report 

01/02/1999 



Name and mailing address of the ISA 

European Patent Office, P-B. 581 8 Patenttaan 2 
NL-2280HVRijswijk 
Tel. (+31-70) 340-2040, Tx. 31 651 epo rri, 
Fax (+31-70) 340-3016 



Authorized officer 



Katerbau, R 



FocmPCT/tSA^O(secorid5hoen(Juty1992) 



page 1 of 2 



INTERNATIONAL SEARCH REPORT 



tote onal Application No 

PCT/DE 98/02477 



^Continuation) DOCUMENTS CONSIDERED TO BE RELEVANT 



Category" Citation of document, wfth tndfcalk>n,wheie appropriate, of the relevant passages 



Relevant to claim No. 



OLSEN K A ET AL: "Visualization of a 
document collection: the VIBE system" 
INFORMATION PROCESSING & MANAGEMENT, 1993, 
UK, 

vol. 29, no. 1, pages 69-81, XP000574984 
ISSN 0306-4573 

see page 73, line 6 - page 80, line 13 

EGGHE L: "A new method for Information 
retrieval, based on the theory of relative 
concentration" 

PROCEEDINGS OF THE 13TH INTERNATIONAL 
CONFERENCE ON RESEARCH AND DEVELOPMENT IN 
INFORMATION RETRIEVAL, BRUSSELS, BELGIUM, 
5-7 SEPT. 1990, pages 469-494, XP002090103 
ISBN 0-89791-408-2, 1989, New York, NY, 
USA, ACM, USA 
see the whole document 



1-14 



1-14 



FottnrcrTASA/210(continu8ta 



page 2 of 2 



INTERNATIONALER RECHERCHENBERICHT 



tnten . .males Aktenzefchen 

PCT/DE 98/02477 



A. KLASSJ FdER UNO DES ANMELDUNGSGEGENSTANDES 

IPK 6 G06F17/30 



Nach der IntematJonaten Patertklassifikalion (IPK) Oder nach der nattonaten Ktasstfitetlon und der IPK 



a RECHERCHIERTE GEBIETE 



Rechof ctterter Mindestprtifstofl (Klaeaifikattonssystem und KJassifiKattonssymiJote ) 

IPK 6 G06F 



Recherchierte abernteht zum Mirxlesipcufstoff gertdrende VerofTermichungerv sowert dJeae unter die recherchterten QebietefaBen 



Wahrond der irtemationaten Recherche konsuWerte eJektronische Datenbank (Name der Datenbank und evtl. verwendete Suchbegrtffe) 



C. ALS WESENTUCH ANGESEHENE UNTERLAGEN 



Kategorte* Bezeichrajngder VerMfenffichur^e^^ 



Betr. Anspructi Nr. 



SUMNER R G JR ET AL: "An investigation of 

relevance feedback using adaptive linear 

and probabilistic models" 

FIFTH TEXT RETRIEVAL CONFERENCE (TREC-5) 

(NIST SP 500-238), FIFTH TEXT RETRIEVAL 

CONFERENCE (TREC-5) (NIST SP 500-238), 

GAITHERSBUR6, MD, USA, 20-22 NOV. 1996, 

Selten 555-570, XP002090102 

1997, Gaithersburg, MD, USA, Nat. Inst. 

Standards & Technol , USA 

slehe Selte 557, Zelle 1 - Seite 558, 

Zelle 14 



-/- 



1-14 



LU 



Weitere VerofferrtSchungen and der Fortsetzung von FeJd C zu 
entnehmen 



□ 



Slehe Anhang PatentfamiUe 



• Beaondere Kategortan von angegabenen Verdrrentiichungen ; 

"A* VerMantttchungL (to den allgemeinen Stand der TechnOc defintert. 
aber nicht ais besondera bedeutsam anzusenen 1st 

"E" fitteres Dokumerrt, das jedoch erst am oder nax^ dam rntemationaJen 
Arrmetdedatum veioffentJicht warden 1st 

"L" Veroffenflfchung, die geelgnet 1st einen Prforitatsanspnx^ zwetfelhaft er- 
3chainen zu tas3©n, odor dutch die das VeroftanUtehungsdatum einer 
anderen Im Rechercrtenbericht genannten Verotfertf ichung beiegt werden 
soil Oder die aus etnom anderen besonderen Grund angegeben 1st (w» 
ausgefuhrt) 

"O" VerdfrentBchung, die efch auf elne mundttche Offenbarung, 

eine Benutzung, etna Aussteflung oder andere Maflnahmen bezieht 
"P" Vertffenttfchung, die vor dent rntemationalen Anmetdadatum, aber nach 



T Spatere Verortentfichung, die nach dem internationalen Anmekledatum 
oder dam Prtorttatsdaturn vertftentlichi woiden tetundmUder 
Anmettung nicht koflrdieft sondern nur zum Verstandmsdeeder 
Erftndung zugrundeiiegenden Prinzip3 oder der Ihr zugjundetiegenden 
Theorte angegeben tef 

^Verdffentlfchung von besonderer Bedeutung; die beanspfuchte E/fmdung 
kann aiJein aufgnjnd cfloser VerdflerrUtehung nicht als neu odar auf 
emndertecher Taligkett beruhend betrachtet werden 

*V Verdtfentltehung von besonderer Bedeutung; die beanspruchte Erfindung 
kann nicht ate auf erftnderiscner Tatfgkefl beruhend betrachtet 
werden, wann die Veroffenttichung mrt einer oder mehraren anderen 
VerdffentSchungen dteaer Kateoorie in Verbindung gebracht wird und 
dtose Verbindung fur einen Fachmartn naheOegend 1st 

Vertmenttichung, cfie MitgUed dersefeen Patenttamflie 1st 



Datum des AbschJussea der Iritemattonalen Recherche 

15. Januar 1999 


Absendedatum des internattonaten Rertierchenberichts 

01/02/1999 


Name und Postarechrift der trrtamatfortaten Rechorchenbehonte 
Europabches Patentamt P.R 5818Patenoaan2 
NL - 2280 HV FtQswtjk 
Tel. (431-70) 340204a Tx. 31 651 epo nt. 
Fax (+31-70)340-3016 


BevoUnaachtkjt&r Becfienstetar 

Katerbau, R 



FonnUatt PCT/rSAff10(Btatt 2) (Jul.1992) 



Seite 1 von 2 



INTERNATIONALER RECHERCHENBERICHT 



Intel xudes Aktenzdchen 

PCT/DE 98/02477 



OfFortsetzung) ALS WESENTUCH ANGESEHENE UNTERLAGEN 



Kategorie 9 Bozeichnung der VerdftentBchung, sowetterforderfich unter Angabo dor In BdtracMkommenden Teil© 



B»tr. Anspruch Nr. 



OLSEN K A ET AL: "Visualization of a 
document collection: the VIBE system" 
INFORMATION PROCESSING & MANAGEMENT, 1993, 
UK, 

Bd. 29, Nr. 1, Selten 69-81, XP000574984 
ISSN 0306-4573 

siehe Selte 73, Zelle 6 - Selte 80, Zeile 
13 

EGGHE L: "A new method for Information 
retrieval, based on the theory of relative 
concentration" 

PROCEEDINGS OF THE 13TH INTERNATIONAL 
CONFERENCE ON RESEARCH AND DEVELOPMENT IN 
INFORMATION RETRIEVAL, BRUSSELS, BELGIUM, 
5-7 SEPT. 1990, Selten 469-494, 
XP002090103 

ISBN 0-89791-408-2, 1989, New York, NY, 

USA, ACM, USA 

siehe das ganze Dokument 



1-14 



1-14 



FMifcU FCmSAttlO (Ftaeaoune von Ban2> (JUI 1992) 



Seite 2 von 2 



